Giải trình tự toàn bộ gen là gì? Các nghiên cứu khoa học

Giải trình tự toàn bộ gen là kỹ thuật xác định toàn bộ trình tự DNA của một sinh vật, bao gồm cả vùng mã hóa và không mã hóa trong hệ gen. Phương pháp này cung cấp cái nhìn toàn diện về biến thể di truyền, hỗ trợ chẩn đoán bệnh, nghiên cứu y học cá thể hóa và phân tích hệ gen với độ chính xác cao.

Định nghĩa giải trình tự toàn bộ gen

Giải trình tự toàn bộ gen (Whole Genome Sequencing – WGS) là kỹ thuật dùng để xác định toàn bộ trình tự nucleotide của DNA trong bộ gen của một sinh vật, bao gồm cả vùng mã hóa và vùng không mã hóa. Phương pháp này cho phép phân tích mọi yếu tố di truyền có thể ảnh hưởng đến chức năng sinh học, bệnh lý và đặc điểm của cá thể, giúp xây dựng một bản đồ gen chính xác ở mức độ từng base pair.

Không giống như các phương pháp giải trình tự có mục tiêu cụ thể như giải trình tự exon hoặc các vùng liên quan đến bệnh, WGS bao phủ toàn bộ hệ gen, từ introns, exons, đến các vùng điều hòa như promoter, enhancer và cả vùng gen chưa rõ chức năng. Điều này tạo ra lượng dữ liệu khổng lồ nhưng có giá trị nghiên cứu và ứng dụng lâm sàng cao, đặc biệt trong y học cá thể hóa và nghiên cứu bệnh hiếm.

WGS được sử dụng trong nhiều lĩnh vực như chẩn đoán di truyền, phát hiện đột biến trong ung thư, nghiên cứu tiến hóa, dịch tễ học gen và phân tích vi sinh vật. Công nghệ này đã phát triển nhanh chóng nhờ sự giảm mạnh của chi phí giải trình tự và sự cải tiến trong năng lực xử lý dữ liệu.

Nguyên lý và quy trình kỹ thuật

Giải trình tự toàn bộ gen được thực hiện thông qua một chuỗi các bước chuẩn hóa, từ chuẩn bị mẫu đến phân tích dữ liệu. Quá trình này có thể được thực hiện bằng các nền tảng công nghệ khác nhau, phổ biến nhất là Illumina (short-read), PacBio và Oxford Nanopore (long-read), tùy thuộc vào mục tiêu nghiên cứu.

Quy trình kỹ thuật cơ bản gồm các bước sau:

  1. Chiết tách DNA chất lượng cao từ mẫu sinh học (máu, mô, nước bọt...)
  2. Cắt nhỏ DNA thành các đoạn ngắn hoặc dài (tùy nền tảng sử dụng)
  3. Gắn đoạn chỉ thị (adapter) vào hai đầu mỗi đoạn DNA
  4. Thực hiện phản ứng khuếch đại nếu cần
  5. Trình tự hóa DNA bằng máy giải trình tự
  6. Lắp ráp trình tự, loại bỏ nhiễu, phân tích dữ liệu tin sinh học

Bảng dưới đây so sánh ba nền tảng phổ biến trong giải trình tự toàn bộ gen:

Nền tảng Độ dài đọc Ưu điểm Nhược điểm
Illumina ~150 bp Độ chính xác cao, chi phí thấp Khó phân tích vùng lặp và tái sắp xếp lớn
PacBio >10.000 bp Giải trình tự dài, hỗ trợ phát hiện đột biến cấu trúc Chi phí cao, lỗi đọc thô cần hiệu chỉnh
Oxford Nanopore ~1.000 đến >100.000 bp Thiết bị nhỏ gọn, thời gian phản hồi nhanh Độ chính xác chưa ổn định, cần cải tiến thuật toán

Sau khi giải mã trình tự DNA, dữ liệu được xử lý thông qua các pipeline tin sinh học để so sánh với hệ gen tham chiếu, phát hiện các biến thể di truyền như SNPs, INDELs, SVs và CNVs.

Phân biệt với các kỹ thuật giải trình tự khác

WGS là phương pháp toàn diện nhất trong các kỹ thuật giải trình tự gen, vượt trội về độ phủ và khả năng phát hiện biến thể. Tuy nhiên, chi phí cao và yêu cầu xử lý dữ liệu lớn khiến WGS thường được cân nhắc cùng với các phương pháp khác tùy theo mục tiêu cụ thể.

Các phương pháp so sánh với WGS:

  • Giải trình tự exome (Whole Exome Sequencing – WES): Giải mã khoảng 1–2% hệ gen, tập trung vào các vùng mã hóa protein. Thích hợp cho nghiên cứu bệnh di truyền và có chi phí thấp hơn WGS.
  • Giải trình tự vùng đích (Targeted Sequencing): Phân tích một số gen hoặc vùng cụ thể có liên quan đến bệnh hoặc chức năng sinh học đã biết.

Bảng so sánh các kỹ thuật:

Phương pháp Vùng phân tích Khả năng phát hiện đột biến Chi phí
WGS Toàn bộ hệ gen SNPs, INDELs, SVs, CNVs, vùng điều hòa Cao
WES Chỉ exon (1–2%) Đột biến gen mã hóa Trung bình
Targeted Vài chục – vài trăm gen Đột biến đã biết Thấp

Việc lựa chọn giữa WGS, WES hay giải trình tự vùng đích phụ thuộc vào độ rộng phân tích cần thiết, độ nhạy mong muốn và khả năng chi trả trong bối cảnh nghiên cứu hay lâm sàng.

Ứng dụng trong y học cá thể hóa

Giải trình tự toàn bộ gen là công cụ nền tảng của y học chính xác, cho phép thiết lập bản đồ di truyền của từng cá nhân, từ đó đưa ra các quyết định y tế mang tính cá nhân hóa về phòng bệnh, chẩn đoán và điều trị.

Các ứng dụng thực tế trong lâm sàng gồm:

  • Xác định đột biến gây bệnh di truyền (như Huntington, bệnh Wilson, rối loạn chuyển hóa bẩm sinh...)
  • Chọn thuốc phù hợp với kiểu gen chuyển hóa (dược di truyền học – pharmacogenomics)
  • Dự đoán nguy cơ mắc bệnh phức tạp như tim mạch, tiểu đường, Alzheimer dựa trên đa biến thể di truyền

Ví dụ, người mang biến thể trong gen CYP2C19 có thể không đáp ứng với clopidogrel – một thuốc chống kết tập tiểu cầu phổ biến. Việc biết thông tin này trước khi điều trị sẽ giúp bác sĩ chọn lựa thuốc thay thế phù hợp hơn.

WGS cũng đang được ứng dụng trong tầm soát trước sinh (non-invasive prenatal testing – NIPT nâng cao) và kiểm tra trước khi mang thai (carrier screening) để phát hiện các gen bệnh có thể di truyền cho con cái.

Ứng dụng trong nghiên cứu và phát hiện bệnh hiếm

Giải trình tự toàn bộ gen đang trở thành công cụ then chốt trong việc chẩn đoán các bệnh hiếm có nguồn gốc di truyền. Nhiều bệnh nhân trải qua "cuộc hành trình chẩn đoán" kéo dài nhiều năm, với nhiều xét nghiệm không xác định được nguyên nhân. WGS giúp giải quyết những ca lâm sàng khó, khi các phương pháp truyền thống như giải trình tự exome hoặc xét nghiệm mục tiêu không phát hiện được bất thường.

WGS có thể phát hiện được:

  • Đột biến ở vùng điều hòa gen hoặc vùng intron sâu
  • Biến thể cấu trúc lớn như mất đoạn, đảo đoạn, nhân đoạn, chuyển đoạn
  • Đột biến lặp lại (repeat expansion), khó phát hiện bằng kỹ thuật thông thường

Trong một nghiên cứu của New England Journal of Medicine, WGS đã giúp tăng tỷ lệ chẩn đoán bệnh hiếm từ 25% lên 41% so với WES, đặc biệt trong các bệnh thần kinh, rối loạn phát triển và bệnh lý chuyển hóa.

Vai trò trong nghiên cứu ung thư

WGS đang được ứng dụng mạnh mẽ trong ung thư học, giúp phân tích toàn bộ bộ gen của tế bào ung thư và so sánh với mô lành. Phân tích này cung cấp cái nhìn toàn diện về các biến thể somatic và germline, từ đó xác định được cơ chế sinh ung và các đột biến có thể tác động đến lựa chọn điều trị.

Các ứng dụng chính trong ung thư học bao gồm:

  • Phát hiện đột biến đặc hiệu (như BRAF, EGFR, KRAS)
  • Phân tích toàn bộ tín hiệu đột biến để xây dựng “mẫu hình đột biến” (mutational signature)
  • Đánh giá mức độ mất ổn định vi vệ tinh (MSI), gánh nặng đột biến (TMB) – yếu tố dự đoán đáp ứng miễn dịch

Theo National Cancer Institute, WGS có khả năng xác định các điểm đích điều trị tiềm năng trong ung thư kháng trị và hỗ trợ phân loại phân nhóm chính xác trong bệnh lý huyết học ác tính như leukemia và lymphoma.

Ưu điểm và hạn chế

WGS là công cụ toàn diện nhất hiện nay trong lĩnh vực di truyền học và y học cá thể hóa. Tuy nhiên, kỹ thuật này cũng có những giới hạn nhất định.

Ưu điểm:

  • Giải trình tự toàn bộ hệ gen, không bỏ sót bất kỳ vùng nào
  • Phát hiện được cả đột biến nhỏ và bất thường cấu trúc lớn
  • Phù hợp với các bệnh đa yếu tố và chưa rõ gen bệnh

Hạn chế:

  • Chi phí cao hơn các phương pháp khác (dù đang giảm mạnh)
  • Dữ liệu lớn, cần hệ thống phân tích và lưu trữ chuyên biệt
  • Khó giải thích các biến thể không rõ ý nghĩa (VUS – Variants of Uncertain Significance)
  • Vấn đề đạo đức và bảo mật thông tin di truyền

Các tổ chức như GA4GH đang xây dựng khung pháp lý và kỹ thuật để quản lý, chia sẻ và bảo vệ dữ liệu hệ gen trong nghiên cứu và y tế.

Các tiêu chí đánh giá chất lượng WGS

Để WGS đạt được giá trị phân tích và lâm sàng, cần đảm bảo nhiều chỉ số kỹ thuật liên quan đến dữ liệu. Ba tiêu chí quan trọng nhất là độ phủ, độ dài đọc và độ chính xác.

  • Độ phủ (Coverage): Được hiểu là số lần mỗi base được đọc lại trong quá trình giải trình tự. Với WGS lâm sàng, yêu cầu ≥ 30x là chuẩn để phát hiện đột biến với độ tin cậy cao.
  • Độ dài đọc (Read length): Illumina sử dụng đọc ngắn (~150 bp), trong khi PacBio hoặc Nanopore có thể đọc đến vài chục nghìn bp.
  • Độ chính xác đọc (Base calling accuracy): Cần đạt ≥ 99.9% để đảm bảo độ tin cậy trong phân tích.

Công thức tính độ phủ trung bình:

Coverage=N×LGCoverage = \frac{N \times L}{G}

Trong đó: NN là số đoạn đọc, LL là độ dài đọc, GG là kích thước hệ gen người (~3.2 × 10^9 bp). Ví dụ: 600 triệu đoạn đọc dài 150 bp sẽ tạo ra độ phủ trung bình ~28x.

Xu hướng và tương lai của giải trình tự toàn bộ gen

Chi phí WGS đã giảm từ hơn 100 triệu USD (2003) xuống dưới 1.000 USD cho mỗi người, nhờ vào sự tiến bộ công nghệ và tối ưu hóa quy trình. Xu hướng tương lai đang hướng đến ứng dụng đại trà WGS trong chẩn đoán, tầm soát và dự phòng.

Các ứng dụng dự kiến trong tương lai gần:

  • Giải trình tự hệ gen sơ sinh để tầm soát bệnh bẩm sinh (newborn genomic screening)
  • WGS định kỳ trong y tế dự phòng cá nhân hóa
  • Phân tích hệ gen cộng đồng phục vụ dịch tễ học và điều chỉnh chính sách y tế

WGS còn được kỳ vọng tích hợp với các dữ liệu “multi-omics” như transcriptomics, proteomics, metabolomics để hiểu sâu hơn về cơ chế bệnh sinh và đáp ứng sinh học. Trí tuệ nhân tạo (AI) và học máy (machine learning) đang ngày càng được tích hợp để tự động phân tích và diễn giải dữ liệu WGS một cách nhanh và chính xác.

Tài liệu tham khảo

  1. National Human Genome Research Institute. (2023). Genomics and Medicine. Truy cập từ: genome.gov
  2. National Cancer Institute. (2023). Genomics in Cancer. Truy cập từ: cancer.gov
  3. Nature Medicine. (2020). Whole-genome sequencing in rare disease diagnosis. Truy cập từ: nature.com
  4. Illumina Inc. (2023). Whole Genome Sequencing Overview. Truy cập từ: illumina.com
  5. Oxford Nanopore Technologies. (2023). Nanopore-based Sequencing. Truy cập từ: nanoporetech.com
  6. GenomeWeb. (2024). Sequencing and Genomics News. Truy cập từ: genomeweb.com
  7. Global Alliance for Genomics and Health (GA4GH). (2023). Framework for Responsible Sharing of Genomic Data. Truy cập từ: ga4gh.org

Các bài báo, nghiên cứu, công bố khoa học về chủ đề giải trình tự toàn bộ gen:

ỨNG DỤNG PHƯƠNG PHÁP GIẢI TRÌNH TỰ TOÀN BỘ VÙNG GEN MÃ HÓA TRONG VIỆC XÁC ĐỊNH SƠ BỘ BIẾN THỂ DI TRUYỀN Ở BỆNH NHÂN MẮC DỊ TẬT VAN TIM BẨM SINH
Tạp chí khoa học Trường Đại học Mở Hà Nội - - Trang - 2022
Dị tật van tim bẩm sinh đặc trưng bởi một hoặc nhiều van tim phát triển bất thường. Có một số nguyên nhân phổ biến gây ra bệnh như nhiễm độc và nhiễm bệnh trong thời gian thai kỳ đặc biệt là do di truyền. Giải trình tự toàn bộ vùng gen mã hóa cho phép xác định biến thể di truyền trên đồng thời nhiều gen đươc coi là phương pháp thích hợp trong nghiên cứu di truyền dị tật van tim bẩm sinh. Nghiên cứ... hiện toàn bộ
#Dị tật van tim bẩm sinh #đột biến gen #giải trình tự toàn bộ vùng mã hóa #giải trình tự thế hệ mới #tin sinh học
Ứng dụng công cụ tin sinh AMROMICS vào phân tích tự động dữ liệu giải trình tự toàn bộ hệ gen vi khuẩn
TẠP CHÍ Y DƯỢC LÂM SÀNG 108 - - 2022
Mục tiêu: Nghiên cứu kết quả bước đầu ứng dụng công cụ tin sinh AMROMICS trong phân tích tự động hệ gen của vi khuẩn kháng kháng sinh. Đối tượng và phương pháp: Phân tích toàn bộ hệ gen của 14 chủng vi khuẩn E. coli và chủng E. coli K-12 MG1655 được công bố trên cơ sở dữ liệu NCBI bằng công cụ tin sinh AMROMICS. Kết quả: Công cụ tự động phân tích toàn bộ hệ gen của 15 mẫu vi khuẩn trong thời gian ... hiện toàn bộ
#AMROMICS #phân tích giải trình tự #toàn bộ hệ gen #vi khuẩn #kháng kháng sinh
31. NGHIÊN CỨU ĐỘT BIẾN GEN Pvcrt LIÊN QUAN ĐẾN KHÁNG CHLOROQUINE Ở PLASMODIUM VIVAX TẠI MƯỜNG TÈ, LAI CHÂU BẰNG REAL-TIME PCR VÀ GIẢI TRÌNH TỰ TOÀN BỘ HỆ GEN
Tạp chí Y học Cộng đồng - Tập 66 Số CĐ4-NCKH - Trang - 2025
Mục tiêu: Nghiên cứu nhằm đánh giá mức độ biểu hiện và đột biến gen Pvcrt liên quan đến kháng Chloroquine ở Plasmodium vivax tại huyện Mường Tè, tỉnh Lai Châu, Việt Nam. Phương pháp: Nghiên cứu mô tả cắt ngang trên 48 mẫu máu dương tính P. vivax, thu thập từ tháng 10/2022-3/2024. Biểu hiện Pvcrt được định lượng bằng qPCR, đột biến được xác định qua giải trình tự toàn bộ hệ gen Illumina. Bổ sung tổ... hiện toàn bộ
#Plasmodium vivax #Pvcrt #kháng Chloroquine #đột biến gen #biểu hiện gen
Phân tích toàn bộ gen trong ung thư và mối liên hệ với tiên lượng bệnh nhân liên quan đến sự nhân đôi toàn bộ gen Dịch bởi AI
BMC Cancer - Tập 23 - Trang 1-15 - 2023
Sự nhân đôi toàn bộ gen (WGD) là một đột biến phổ biến trong ung thư. Nhiều nghiên cứu đã gợi ý rằng WGD liên quan đến tiên lượng kém trong ung thư. Tuy nhiên, mối liên hệ chi tiết giữa sự xảy ra của WGD và tiên lượng vẫn chưa rõ ràng. Trong nghiên cứu này, chúng tôi nhằm mục đích làm sáng tỏ cơ chế mà WGD ảnh hưởng đến tiên lượng bằng cách sử dụng dữ liệu giải trình tự từ Phân tích Toàn bộ Gen củ... hiện toàn bộ
#sự nhân đôi toàn bộ gen #WGD #ung thư #tiên lượng bệnh nhân #giải trình tự toàn bộ gen
Kiểm định nhanh và nhạy các bản sao gen fusion trong dữ liệu giải trình tự toàn bộ gen Dịch bởi AI
BMC Bioinformatics - Tập 24 - Trang 1-14 - 2023
Trong ung thư, các rearrangement gen có thể tạo ra các gen fusion, kết hợp chuỗi mã hóa protein từ hai gen đối tác khác nhau hoặc đặt một gen dưới sự kiểm soát của promoter của một gen khác. Các gen fusion này có thể hoạt động như là những nhân tố kích thích ung thư trong sự phát triển của khối u và một số trường hợp fusion liên quan đến kinase đã được khai thác thành công làm mục tiêu trị liệu. C... hiện toàn bộ
#gen fusion #RNA-Seq #giải trình tự toàn bộ gen #xác thực #đột biến gen
Giải mã đồng thời bộ gen của các sinh vật cộng sinh và vật chủ của chúng Dịch bởi AI
Symbiosis - Tập 55 - Trang 119-126 - 2012
Kỹ thuật giải trình tự thế hệ thứ hai đã cho phép giải trình tự các bộ gen cần thiết ngay cả đối với những nhóm nghiên cứu nhỏ. Tuy nhiên, việc thu thập các văn hóa sạch riêng biệt và các mẫu vô tính hoặc tự nghiệm của các sinh vật đa bào và các vi khuẩn cộng sinh của chúng thường gặp khó khăn. Trong bài báo này, chúng tôi trình bày một quy trình tính toán để tách biệt DNA của sinh vật đa bào và v... hiện toàn bộ
#giải trình tự thế hệ thứ hai #sinh vật đa bào #vi khuẩn cộng sinh #quy trình tính toán #DNA #hệ sinh thái cộng sinh
Xác định các đột biến MECP2 liên quan đến tự kỷ bằng cách giải trình tự toàn bộ exome và xác thực chức năng Dịch bởi AI
Molecular Autism - Tập 8 - Trang 1-10 - 2017
Protein liên kết methyl-CpG-2 (MeCP2) là một nghiên cứu quan trọng trong sự phát triển thần kinh. Việc mất hoặc tăng chức năng đều dẫn đến các rối loạn phát triển thần kinh nghiêm trọng, chẳng hạn như hội chứng Rett (RTT) và rối loạn phổ tự kỷ (ASD). Chúng tôi đã tiến hành sàng lọc các đột biến MECP2 ở bệnh nhân bị ASD và xác định xem các đột biến liên quan đến tự kỷ này có thể làm suy giảm chức n... hiện toàn bộ
#MECP2 #tự kỷ #giải trình tự toàn bộ exome #rối loạn phát triển thần kinh #đột biến gene
Đột Biến Gen ELMO Domain Containing 1 (ELMOD1) Liên Quan Đến Chậm Phát Triển Trí Tuệ và Rối Loạn Phổ Tự Kỷ Dịch bởi AI
Springer Science and Business Media LLC - Tập 69 - Trang 312-315 - 2019
Gen ELMO Domain Containing 1 (ELMOD1) mã hóa một protein có chức năng hoạt hóa GTPase. Các nghiên cứu trước đây đã xác nhận sự biểu hiện quá mức của nó trong các mô não. Mặc dù chưa có nghiên cứu nào trước đó báo cáo về đột biến trong gen này ở người, nhưng các đột biến inactivate tự phát ở gen đồng hình của chuột đã được liên kết với tình trạng điếc và vấn đề thăng bằng. Trong nghiên cứu hiện tại... hiện toàn bộ
#gen ELMOD1 #đột biến gen #chậm phát triển trí tuệ #rối loạn phổ tự kỷ #phân tích phân ly #giải trình tự toàn bộ exon
Tổng số: 37   
  • 1
  • 2
  • 3
  • 4